Ik ben momenteel bezig met het schrijven van een basisparser voor een XML-smaak. Als oefening implementeer ik een LL-tabelgestuurde parser. Dit is mijn voorbeeld van BNF-grammatica: % token name gegevensreeks %% / * LL (1) * / doc: elem elem: "<" open_tag open_tag: naam attr close_tag close_tag: ">" elem_or_data "" naam ">" elem_or_data: "<" open_tag elem_or_data data elem_or_data / * epsilon * / attr: name ":" string attr / * epsilon * / Is deze grammatica correct? Elke letterlijke terminal staat tussen aanhalingstekens. De abstracte terminals worden gespecificeerd door% token. Ik codeer een handgeschreven lexer om mijn invoer om te zetten in een tokenslijst. Hoe zou ik de abstracte terminals tokeniseren?
2021-03-03 08:10:44
De klassieke benadering zou zijn om een reguliere expressie (of een andere herkenner) te schrijven voor elke mogelijke terminal. Wat u "abstracte" terminals noemt, die perfect concreet zijn, zijn in feite terminals waarvan de bijbehorende patronen meer dan één mogelijke invoerstring herkennen. De werkelijk herkende tekenreeks (of een berekende functie van die tekenreeks) moet aan de parser worden doorgegeven als de semantische waarde van het token. Nominaal zal de tokeniser op elk punt in de invoertekenreeks alle herkenners uitvoeren en degene met de langste overeenkomst kiezen. (Dit is de zogenaamde "maximale munch" -regel.) Dit kan meestal worden geoptimaliseerd, vooral als alle patronen reguliere expressies zijn. (F) lex zal die optimalisatie bijvoorbeeld voor u doen. Een complicatie in uw geval is dat de tokenisering van uw taal contextafhankelijk is. In het bijzonder, wanneer het doel elem_or_data is, zijn de enige mogelijke tokens <, en "data". Binnen een tag is "data" echter niet mogelijk, en zijn "name" en "string" -tags mogelijk (onder andere). Het is ook mogelijk dat de waarde van een attribuut dezelfde lexicale vorm heeft als de sleutel (d.w.z. een naam). In XML zelf moet de kenmerkwaarde een tekenreeks tussen aanhalingstekens zijn en het gebruik van een tekenreeks zonder aanhalingstekens wordt gemarkeerd als een fout, maar er zijn zeker "XML-achtige" talen (zoals HTML) waarin kenmerkwaarden zonder witruimte kunnen worden ingevoegd niet geciteerd. Omdat de lexicale analyse afhankelijk is van de context, moet de lexicale analysator worden doorgegeven (of toegang hebben tot) een extra stuk informatie dat de lexicale context definieert. Dit wordt meestal weergegeven als een enkele opsommingswaarde, die kan worden berekend op basis van de laatste paar geretourneerde tokens, of op basis van de EERSTE set van de huidige parserstapel. 2 Uw antwoord StackExchange.ifUsing ("editor", function () { StackExchange.using ("externalEditor", function () { StackExchange.using ("snippets", function () { StackExchange.snippets.init (); }, "code-snippets"); StackExchange.ready (function () { var channelOptions = { tags: "" .split (""), id: "1" initTagRenderer ("". split (""), "" .split (""), channelOptions); StackExchange.using ("externalEditor", function () { // Moet de editor na fragmenten activeren, als fragmenten zijn ingeschakeld if (StackExchange.settings.snippets.snippetsEnabled) { StackExchange.using ("snippets", function () { createEditor (); anders { createEditor (); functie createEditor () { StackExchange.prepareEditor ({ useStacksEditor: false, heartbeatType: 'antwoord', autoActivateHeartbeat: false, convertImagesToLinks: waar, noModals: waar, showLowRepImageUploadWarning: true, ReputationToPostImages: 10, bindNavPrevention: true, postfix: "", imageUploader: { brandingHtml: "Aangedreven door \ u003ca href = \" https: //imgur.com/ \ "\ u003e \ u003csvg class = \" svg-icon \ "width = \" 50 \ "hoogte = \" 18 \ "viewBox = \ "0 0 50 18 \" fill = \ "none \" xmlns = \ "http: //www.w3.org/2000/svg \" \ u003e \ u003cpath d = \ "M46.1709 9.17788C46.1709 8.26454 46.2665 7.94324 47.1084 7.58816C47.4091 7.46349 47.7169 7.36433 48.0099 7.26993C48.9099 6.97997 49.672 6.73443 49.672 5.93063C49.672 5.22043 48.9832 4.61182 48.1414 4.61182C47.4335 4.61182 46.7256 4.91628 46.0845 43.1481 6.59048V11.9512C43.1481 13.2535 43.6264 13.8962 44.6595 13.8962C45.6924 13.8962 46.1709 13.2535 46.1709 11.9512V9.17788Z \ "/ \ u003e \ u003cpath d = \" M32.492 10.1419C32.492 14.045.14.07 37.045 14.6954 41.5985 12.6954 41.5985 10.1419V6.59049C41.5985 5.28821 41.1394 4.66232 40.1061 4.66232C39.0732 4.66232 38.5948 5.28821 38.5948 6.59049V9.60062C38.5948 10.8521 38.2696 11.520455 37.0451 11.5954.545.85.8 521 35.4954 9.60062V6.59049C35.4954 5.28821 35.0173 4.66232 34.0034 4.66232C32.9703 4.66232 32.492 5.28821 32.492 6.59049V10.1419Z \ "/ \ u003e \ u003cpath fill-rule = \" evenodd \ "clip-rule = \" evenodd \ "d = \ "M25.6622 17.6335C27.8049 17.6335 29.3739 16.9402 30.2537 15.6379C30.8468 14.7755 30.9615 13.5579 30.9615 11.9512V6.59049C30.9615 5.28821 30.4833 4.66231 29.4502 4.66231C28.9913 4.63 ... .1369 4.56087 21.0134 6.57349 21.0134 9.27932C21.0134 11.9852 23.003 13.913 25.3754 13.913C26.5612 13.913 27.4607 13.4902 28.1109 12.6616C28.1109 12.7229 28.1161 12.7799 28.121 28.1161 12.7799 28.121 28.1161 12.7799 28.121 12.8346C28.125 28.116 15.2321 24.1352 14.9821 23.5661 14.7787C23.176 14.6393 22.8472 14.5218 22.5437 14.5218C21.7977 14.5218 21.2429 15.0123 21.2429 15.6887C21.2429 16.7375 22.9072 17.6335 25.6622 17.6335Z79C ... 27.2119 7.09766 28.0918 7.94324 28.0918 9.27932C28.0918 10.6321 27.2311 11.5116 26.1024 11.5116C24.9737 11.5116 24.1317 10.6491 24.1317 9.27932Z \ "/ \ u003e \ u003cpath d = \" M16.8045 11.9512C16.806 18.445 11.9512C16.80613.8962C19.3298 13.8962 19.8079 13.2535 19.8079 11.9512V8.12928C19.8079 5.82936 18.4879 4.62866 16.4027 4.62866C15.1594 4.62866 14.279 4.98375 13.3609 5.88013C12.653 5.05154 11.6581 4.62866 72866 10.357.3732866 13.9157 13.2535 13.9157 11.9512V8.90741C13.9157 7.58817 14.3365 6.91179 15.4269 6.91179C16.4027 6.91179 u ..31675 5.28821 2.83866 4.66232 1.82471 4.66232C0.791758 4.66232 0.313354 5.28821 0.313354 6.59049V11.95 13.2535 3.316 75 11.9512V6. Z \ "fill = \" # 1BB76E \ "/ \ u003e \ u003c / svg \ u003e \ u003c / a \ u003e", contentPolicyHtml: "Gebruikersbijdragen gelicentieerd onder \ u003ca href = \" https: //stackoverflow.com/help/licensing \ "\ u003ecc by-sa \ u003c / a \ u003e \ u003ca href = \" https://stackoverflow.com / legal / content-policy \ "\ u003e (contentbeleid) \ u003c / a \ u003e", allowUrls: waar onDemand: waar, discardSelector: ".discard-answer" , onmiddellijkShowMarkdownHelp: true, enableTables: true, enableSnippets: true Bedankt voor het bijdragen aan een antwoord op Stack Overflow! Zorg ervoor dat u de vraag beantwoordt. Geef details en deel uw onderzoek! Maar vermijd ... Om hulp, opheldering vragen of reageren op andere antwoorden. Uitspraken doen op basis van meningen; Maak er een back-up van met referenties of persoonlijke ervaring. Bekijk onze tips voor het schrijven van goede antwoorden voor meer informatie. Concept opgeslagen Concept verwijderd Meld u aan of log in StackExchange.ready (function () { StackExchange.helpers.onClickDraftSave ('# login-link'); Meld u aan met Google Meld u aan met Facebook Meld u aan met e-mail en wachtwoord Verzenden Post als gast Naam E-mail Vereist, maar nooit getoond StackExchange.ready ( functie () { StackExchange.openid.initPostLogin ('. New-post-login', 'https% 3a% 2f% 2fstackoverflow.com% 2fquestions% 2f54745855% 2ftokenize-abstract-terminals-in-ll-grammar% 23new-answer', 'question_page' ); Post als gast Naam E-mail Vereist, maar nooit getoond Plaats uw antwoord Gooi weg Door op "Plaats uw antwoord" te klikken, gaat u akkoord met onze servicevoorwaarden, privacybeleid en cookiebeleid Niet het antwoord waar je naar zoekt? Blader door andere vragen met de tag parsing lexer bnf ll recursive-descent of stel uw eigen vraag.